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Domaine de I'invention 

La presente invention se rapporte au domaine specifique de la 
5 reconnaissance et de 1' indexation de documents dans une base de donnees. 
EUe vise tout particulierement un dispositif et le precede correspondant 
pemiettant 1' indexation de dessins techniques et de formulaires a partir de la 
reconnaissance de seulement certains de leurs elements. 

10 Art anterieur 

Les procedes de reconnaissance de documents sont multiples et sont 
bien connus. lis mettent en oeuvre une etape initiate de numerisation suivie 
d'une etape de segmentation elle meme suivie d'une etape de 
reconnaissance OCR. L 'etape de segmentation (decoupe du document) peut 

15 porter sur tout (cas du « pleine page » classique) ou partie du document. 

Toutefois, une telle methode conventionnelle permettant ensuite une 
indexation automatique du document n'est envisageable que si le document 
a reconnaitre n'est pas trop comple.\e. En outre, elle n'est pas appliquee en 
matiere de dessins techniques. En effet, dans ce domaine specifique, il est 

20 procede seulement a la premiere etape de numerisation, les etapes de 
segmentation et de reconnaissance etant remplacees par une etape effectuee 
directement par un operateur et consistant en une saisie manuelle des 
elements particuliers necessaires a 1" indexation du dessin, au niveau de une 
ou plusieurs zones de ce dessin (presentes en pratique dans son seul 

25 cartouche). 

On comprend des lors que ce traitement devienne vite fastidieux 
lorsqu'il s'agit d'indexer plus d'une dizaine de dessins techniques 
eventuellement de types differents (c'est a dire avec des cartouches de 
formes differentes). II existe done actuellement un besoin non satisfait pour 



une methode d'indexation a partir d'une reconnaissance automatique de ces 
dessins. 

Objet et definition de l*invention 

L'invention se propose done de resoudre ce probleme de fa^on simple 
et economique en mettant en ceuvre un procede de reconnaissance et 
d' indexation de documents consistant, a partir d'un numeriseur relie a un 
ordinateur, tout d'abord a numeriser ces documents puis a designer au 
moyen d'un organe de pointage de Tordinateur un point quelconque P d'au 
moins une case de ces documents et enfin a reconnaitre par reconnaissance 
OCR les caracteres de cette case afin de les stocker dans une premiere base 
de donnees reliee a Tordinateur pour permettre une indexation des 
documents ainsi numerises. L'etape de designation comprend une etape de 
recherche et d'identification de la case du document a laquelle appartient 
ledit point P designe par Tutilisateur. 

Ainsi, avec le procede de T invention, la saisie manuelle anterieure se 
limite a une designation de zones detemiinees (appelees cases) a Tinterieure 
desquelles une reconnaissance automatique des elements necessaires a 
r indexation d'un premier document de meme type sont disponibles. Les 
documents a reconnaitre et a indexer peuvent etre constitues par un 
ensemble de dessins techniques ou de formulaires de type distincts ou non. 

L'etape de recherche et d' identification de ladite case est effectuee 
en appliquant un algorithme de recherche de forme sur une zone de 
recherche detenninee entourant ledit point P designe prealablement par 
Tutilisateur. Cet algorithme de recherche de forme peut etre un algorithme a 
base de trans fomiee de HOUGH ou un algorithme de projection qui compte 
le nombre de pixels presents dans chaque ligne verticale ou horizontale de 
ladite zone de recherche detenninee et, a partir de ces nombres, retrouve par 
Texamen de pics de profils de projection selon X et Y, les lignes 
horizontales et verticales presentes dans cette zone de recherche. 




Ainsi, en limitant la surface a laquelle Talgorithme est applique, on 
peut augmenter notablement sa vitesse d'execution tout en limitant le 
nombre d' iterations necessaires pour reconnaitre une case du document. 

De preference, I'etape de numerisation est effectuee tout d'abord 

5 pour Tensemble des documents a exploiter, lesdites etapes d' identification 
de la case et de reconnaissance OCR de son contenu etant ensuite effectuees 
successivement pour chacun de ces documents. Toutefois, cette etape de 
numerisation peut aussi etre effectuee tout d'abord pour un premier 
document, lesdites etapes dMdentification de la case et de reconnaissance 

10 OCR de son contenu etant ensuite effectuees pour ce meme document, ces 
trois etapes se repetant successivement pour I'ensemble des documents a 
exploiter. 

L' invention se rapporte egalement au dispositif de reconnaissance et 
d' indexation de documents mettant en oeuvre le procede precedent. 

15 Avantageusement, ce dispositif comporte en outre une seconde base de 
donnees reliee a Tordinateur pour stocker des donnees (dites donnees de 
caracterisation) pennettant une identification ulterieure automatique de la 
case sans designation prealable d'un point quelconque P de cette case. 

Les bases de donnees peuvent etre integrees dans la memoire de 

20 Tordinateur ou exterieures a celui-ci. L'organe de pointage peut etre 
remplace par le clavier de Tordinateur ou bien encore le doigt de 
Tutilisateur. 

Breve description des dessins 
25 D'autres caracteristiques et avantages de la presente invention 

ressortiront mieux de la description suivante, faite a titre indicatif et non 
limitatif, en regard des dessins annexes, sur lesquels: 

- la figure 1 represente un exemple de dessin technique, 

- la figure 2 montre un exemple de cartouche d'un dessin confomie a la 
30 figure 1, 
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- la figure 3 illustre la structure materielle generate du dispositif de 
reconnaissance et d' indexation de documents selon 1' invention, 

- la figure 4 est un organigramme explicitant le fonctionnement du dispositif 
de la figure 3 lors de la reconnaissance et 1' indexation du dessin de la 

5 figure 1, 

- la figure 5 est un organigramme detaillant la fonction de recherche et 
d' identification d'une case du cartouche de la figure 2, 

- la figure 6a represente une premiere zone de recherche incorporant une 
partie de la case a identifier, 

10 - les figures 6b et 6c illustrent des profils de projection obtenus a partir de la 
zone de recherche de la figure 6a, 

- la figure 7a represente une seconde zone de recherche incorporant une 
partie plus importante de la case a identifier, 

- les figures 7b et 7c illustrent des profils de projection obtenus a partir de la 
15 zone de recherche de la figure 7a, 

- la figure 8a represente une troisieme zone de recherche entourant 
completement la case a identifier, et 

- les figures 8b et 8c illustrent des profils de projection obtenus a partir de la 
zone de recherche de la figure 8. 

20 

Description detaillee d'un mode preferentiel de realisation 

Conformement aux figures 1 et 2, un dessin technique tel qu'un plan 
industriel 10 se compose essentiellement du dessin lui meme 12 et d'un 
cartouche 14 comportant plusieurs cases rectangulaires de dimensions 
25 diverses. 

Ces differentes cases qui portent pour la plupart d'entre elles des 
mentions particulieres ne presentent pas toutes le meme interet pour une 
indexation d'un dessin technique. II en est ainsi par exemple de la mention 
de la projection, de Fechelle ou du format de ce dessin. Panni les mentions 
30 qui importent lors d'une indexation, on distingue en general au moins une 



premiere case 16 comportant un numero d' identification du dessin, une 
deuxieme case 18 comportant un litre du dessin et une troisieme case 20 
comportant une mention de I'auteur du dessin. Bien entendu, ces trois 
mentions ne doivent en aucun cas etre considerees comme limitatives, et on 
pourrait aussi bien envisager de prendre egalement en compte une date de la 
demiere mise a jour accessible dans une quatrieme case 22 ou un numero de 
planche reperable dans une cinquieme case 24. 

La figure 3 montre 1' architecture materielle minimale necessaire a un 
ensemble infomiatique pour pemiettre, selon 1' invention, la reconnaissance 
et I 'indexation de documents du type de la figure 1 . 

Cet ensemble comporte tout d'abord un numeriseur ou scanner 30 
pour effectuer une numerisation de documents (en I'espece des plans) 
devant ensuite etre indexes. Ce numeriseur est relie a un ordinateur ou 
micro-ordinateur de type conventionnel 32 muni de moyens logiciels 100 
connus pour assurer cette numerisation. Une premiere base de donnees 34 
reliee egalement a Tordinateur 32 est prevue pour stocker les documents 
ainsi numerises. On notera, que selon la capacite de stockage interne de cet 
ordinateur et le volume des donnees con-espondant aux documents a 
numeriser, cette premiere base de donnees 34 peut etre soit externe, comme 
illustre, soit directement logee en interne dans fordinateur. L 'ordinateur 
comporte bien entendu des moyens logiciels 110 de gestion (creation, 
consultation, modification) de cette premiere base. 

Pour assurer 1" indexation des documents au niveau de la premiere 
base de donnees 34, il est prevu que Tordinateur 32 comporte egalement des 
moyens logiciels 120 de reconnaissance OCR de type connu pour 
reconnaitre et identifier certains elements paniculiers de ces documents. 
Toutefois, ces moyens de reconnaissance OCR sont commandes sous 
faction de moyens logiciels specifiques 130 en liaison avec une seconde 
base de donnees 38 contenant des donnees de caracterisation et pennettant 
un traitement particulierement simple et rapide de ces documents. 
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En effet, selon Tinvention, cette reconnaissance est effectuee 
seulement dans des zones detemiinees du document, plus particulierement, 
dans le cas d'un dessin technique, dans des cases de son cartouche 
localisees par Tutilisateur au moyen d'un organe de pointage 36 de 
5 I'ordinateur, tel qu'une souris, une boule de pointage ou tout autre dispositif 
equivalent (y compris le doigt de Tutilisateur dans le cas de recours a un 
ecran tactile), lequel pennet la designation d'un point quelconque P de cette 
case. Eventuellement, en complement, pour ameliorer encore le traitement, 
ces moyens logiciels 130 peuvent proposer a Tutilisateur a Tissue de cette 
10 operation de designation de definir le type de donnees a reconnaitre dans la 
case ainsi designee, par exemple une suite de caracteres numeriques (pour le 
numero dMdentification) ou une suite de caracteres alphanumeriques (pour 
le titre ou le nom de I'auteur par exemple). 

Le procede mis en oeuvre dans le dispositif precedent, illustre a la 
15 figure 4, suit ainsi les etapes suivantes. Apres une numerisation d'un 
premier document dans une premiere etape 200 par le numeriseur 30 associe 
aux moyens logiciels 100, il est procede dans une deuxieme etape 210 a un 
stockage intermediaire de T image de ce document au niveau de la memoire 
de I'ordinateur 32 ainsi, eventuellement simultanement, qu^a son affichage 
20 sur Tecran de visualisation de Tordinateur (apres si necessaire une operation 
d'agrandissement dite aussi de « zoom »). Si les moyens logiciels de 
traitement 130 ne peuvent identifier le type de document numerise a partir 
des donnees issues de la base de donnees de caracterisation 38 (test de 
Tetape 220), il est alors procede a cette identification au cours des etapes 
25 suivantes du processus, et notamment, il est tout d'abord opere, dans une 
etape 230, au moyen de Torgane de pointage 36 associe a ces moyens 
logiciels 130, a une designation par I'utilisateur d'un point P d'une premiere 
zone detenninee de ce document, par exemple la case 16 du cartouche 14 du 
dessin comportant le numero d'identification de ce dessin. Eventuellement, 
30 de fagon facultative, comme Tillustre en pointille Tetape 240, il est possible 




que I'utilisateur precise alors le type de caracteres qui devront etre reconnus 
dans cette case. Cette indication permet de limiter le choix des caracteres a 
reconnaltre (par exemple les seuls caracteres numeriques 0 a 9) et done 
d'ameliorer I'etape de reconnaissance OCR ulterieure. A partir de la 
designation de ce point (dont les coordonnees sont alors deduites par 
rapport a un point origine predetermine), il est procede dans une nouvelle 
etape 250 a la recherche et T identification de la case a laquelle appartient ce 
point P (c'est a dire a celle de ou des lignes frontieres de cette case comme 
explicite plus avant en regard de la figure 5) et, une fois cette identification 
effectuee (par exemple en affichant en surbrillance ou en couleur les 
contours de cette case) et ses elements de caracterisation stockes dans la 
seconde base de donnees 38 dans une etape 260 (les coordonnees 
dimensionnelles de la case et la position de son centre sont ainsi 
memorisees), il est procede classiquement dans Tetape immediatement 
suivante 270 a la reconnaissance OCR des caracteres de cette case grace aux 
moyens logiciels connus 120. la fin de cette operation de reconnaissance 
etant materialisee par exemple par le fait que Tordinateur « rend la main » a 
I'utilisateur. 

Les cinq etapes precedentes 230, eventuel lenient 240, 250, 260 et 
270 sont ensuite reprises pour une seconde zone determinee, puis une 
suivante, jusqu'a une complete identification du document, c'est a dire 
jusqu'a ce que toutes les zones necessaires a son indexation, et determinees 
prealablement selon Tutilisation souhaitee, au niveau des moyens logiciels 
110, soient prises en compte. Une fois cette operation effectuee, il est 
procede, dans une nouvelle etape 280, au stockage de I'image numerisee 
dans la premiere base de donnees 34. Toutes les etapes precedentes sont 
repetees eventuellement pour un second type de document et, ainsi de suite, 
jusqu'a epuisement des documents a numeriser et indexer. La consultation 
de la premiere base 34 sera ensuite possible par les moyens logiciels 1 10 qui 
permettront classiquement d'acceder a chacun des documents de la base 



selon le critere choisi par I'utilisateur et correspondant a un ou plusieurs des 
elements d' indexation retenus initialement. 

En effet, et ceci est tres important, les operations de designation 
precedentes ne sont realisees que lors de 1' indexation d'un premier 
document d'un type donne car, si les documents suivants a exploiter sont de 
meme type, il est alors repondu par I'affirmative au test de I'etape 220 et un 
pointage des memes differentes zones supports de indexation n'est alors 
plus necessaire. Les moyens logiciels 130 ayant memorises les coordonnees 
des cases reconnues a Tissue des premieres designations dans la base de 
donnees de caracterisation 38, il leur suffit alors simplement de rechercher a 
partir du point origine ces memes cases dans les documents suivants (cette 
ressemblance est testee sur la surface de la case et avec une certaine 
tolerance comme explique en regard de la figure 5) et apres leur 
identification d'en analyser automatiquement le contenu par la 
reconnaissance OCR. sans la designation prealable d'un poim quelconque 
de ces cases. 

On comprend des lors aisement que le procede de invention est 
particulierement rapide et efficace, puisque pour un ensemble de documents 
semblables, une fois la premiere identification d'un type donne de 
documem, au cours de laquelle I'intervention de Tutilisateur est 
indispensable, les suivantes peuvent se poursuivre automatiquement sans 
nouvelle action de cet utilisateur. A chaque fois, la reconnaissance OCR ne 
porte que sur les elements indispensables a 1' indexation des documents et 
non sur Tensemble de celui-ci, comme dans I'art anterieur. 

On notera egalement qu'a la numerisation « a Tunite » precitee (un 
document apres Tautre), il est possible de substituer une numerisation par 
lot ou bien encore une numerisation complete (et alors automatique) de 
rensemble des documents a trailer (et a un stockage correspondant dans 
I'ordinateur), les etapes d'identification et de reconnaissance OCR 
) s'effectuant seulement ensuite successivement pour chaque document de cet 



ensemble, une fois cette operation initiale de numerisation entierement 
realisee. 

La figure 5 montre les differentes operations realisees par le sous 
programme de recherche mis en oeuvre dans les moyens logiciels 130 et 
destine a identifier une case determinee a partir de la seule designation par 
I'utilisateur d'un poim P de cette case. Ces operations sont basees sur 
I'application d'un algorithme de recherche de forme tel qu'un algorithme de 
projection ou une transformee de HOUGH (pour les fomies rondes). En 
I'espece, il est precede a une application particuliere d'un algorithme de 
projection connu en soi et qui consiste a compter le nombre de pixels 
presents dans chaque ligne verticale ou horizontale d'une image et, a partir 
de ces nombres, de retrouver par des profils de projection selon X et Y, les 
lignes horizontales et verticales de cette image (qui sont detenninees par des 
pics dans ces profils de projection). Cet algorithme presente I'interet de 
procurer un rapport signal/bruit tres eleve, car un eventuel « trou » dans une 
ligne (fabsence d'un pixel) modifie peu la hauteur d un pic, de meme 
qu'une eventuelle inclinaison d'une ligne n'affecte que peu la position de ce 
pic. 

Toutefois, selon I'invention, cet algorithme de projection n'est pas 
applique a Tensemble du document mais simplement a une zone detenninee 
de celui-ci (d'aire Si definie dans une etape premiere 300) defmie autour du 
point designe P lors de I'etape de pointage 220. Ainsi, a supposer que cette 
zone de recherche comprend entierement la case a reconnaitre, il suffit alors 
seulemem d'effectuer une projection de toutes les lignes verticales a droite 
du point P pour retrouver le cote droit de la case (ce sera celle dont le pic est 
le plus important ou superieur a un seuil donne). On fera de meme avec les 
lignes verticales a gauche de ce point pour le cote gauche de la case et avec 
les lignes horizontales en haut et en bas de ce poim pour retrouver 
respectivemem les cotes haut et bas de cette case. Toutefois, en pratique, 
, cette zone de recherche initiale est soit comprise dans celle de la case a 
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identifier soit a cheval sur celle-ci (voir par exemple I'aire SI de la figure 
6a), et il convient done d'accroitre sa surface progressivement (par paliers 
determines successifs) jusqu'a ce qu'elle comprenne entierement cette case 
pour parvenir a cette identification (voir I'aire S3 de la figure 8a). A chaque 
fois, il est fait application de ralgorithme de projection (etape 310). 
L'identification est achevee (test de I'etape 330) lorsque pour deux aires 
successives les positions des pics de projection determinees a I'etape 
precedente 320 restent invariables. Les coordonnees de la case trouvee sont 
alors memorisees dans une etape suivante 340 pour pouvoir ensuite etre 
utilisees pour une reconnaissance automatique des documents suivants. Un 
exemple de mise en oeuvre de Talgorithme est illustre en regard des figures 
6a a 8c qui montrent le processus mis en oeuvre pour T identification par 
exemple de la case 1 8 contenant une infonnation a indexer. 

On supposera que futilisateur a « clique » a Textreme droite de cette 
case. Les moyens logiciels 1 30 creent alors une premiere zone de recherche 
rectangulaire d'aire SI autour de ce point qui, comme I'illustre la figure 6a, 
va comprendre un cote vertical droit 400 et deux parties des cotes 
horizontaux haut 402 et bas 404 de la case a identifier. L "application de 
I'algorithme de projection a cette premiere zone de recherche conduit aux 
projections horizontales et verticales des figures 6b et 6c. On remarque tres 
bien, sur la figure 6b, les deux pics 412, 414 correspondant aux cotes 
horizontaux respectifs 402, 404, comme sur la figure 6c, on peut noter le 
seul pic 410 correspondant au cote vertical 400. Cette premiere analyse ne 
pennettant pas f identification de la case 18, il est procede a un examen 
automatique d'une deuxieme zone de recherche d'aire S2 qui, comme le 
montre la figure 7a, integre toujours le cote vertical droit 400 et une partie, 
toutefois plus importante, des deux cotes horizontaux 402, 404. Le resultats 
des algorithmes de projection horizontale et verticale sont donnes aux 
figures 7b et 7c. On reconnait les pics 410, 412, 414 et d'autres pics 418, 
0 420, plus ou moins nets et correspondant a la mention « gauche », 



II 



apparaissent a la fois sur la projection horizontale et sur la projection 
verticale. Enfin, cette seconde application de ralgorithme ne permettant 
toujours pas une identification complete de la case 18, il est definit 
automatiquement une troisieme zone de recherche d'aire S3 qui cette fois 
englobe totalement la case 18 (voir la figure 8a), notamment entierement ses 
cotes horizontaux 402, 404 mais egalement son cote vertical gauche 406. La 
projection horizontale resultant de I'algorithme correspondant est iUustree a 
la figure 8b avec ses deux pics 412, 414 correspondant aux deux cotes 
horizontaux 402, 404. Par centre, la projection verticale fait maintenant 
apparaitre, outre la serie de pics 420, non seulement le pic 410 
correspondant au cote droit 400 de la case 18 mais egalement un nouveau 
pic 416 correspondam au cote gauche 406 de cette case, pennettant ainsi 
une parfaite identification de la case 18. 

II est important de noter que, si le precede et le dispositif de 
r invention ont ete decrits essentiellement au regard de la reconnaissance et 
r indexation de dessins techniques, il est bien entendu envisageable de 
mettre en oeuvre ce precede pour d'autres types de documents et, 
notamment, une application particulierement interessante est celle de la 
reconnaissance et 1" indexation de formulaires, par exemple de type bon de 
cemmande (en matiere de vente par correspondance notamment) ou encore 
feuille d'operatiens. En effet, le traitement de tels fonnulaires suppose 
actuellement de les caracteriser prealablement au moyen de symboles 
particuliers disposes en des endroits specifiques de ces formulaires, lesquels 
syi-nboles pennettront ensuite une identification automatique du type de 
fon-nulaire. Des lors, la caracterisation d'un formulaire est un processus 
long et complexe qui ne pent se justifier que pour la numerisation de 
quantite importante de documents semblables. 

Avec la presente invention, cette phase de caracterisation prealable 
disparait au profit de Tetape de designation/identification des seules cases 
du fonnulaire a traiter. 
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Ainsi, le precede dMdentification est particulierement rapide (ce qui 
est important quant il ne s'agit de traiter que quelques dessins techniques ou 
formulaires), simple et utilisable par tout operateur meme tres peu qualifie. 
En outre, il est stable vis a vis de bmits de saisie eventuels resultant du 
deplacement des documents numerises. 



REVENDICATIONS 



1. Precede de reconnaissance et d'indexation de documents (10) 
consistant, a partir d'un numeriseur (30) relie a un ordinateur (32), tout 
d'abord a numeriser (200) ces documents puis a designer (250) au moyen 
d'un organe de pointage (36) de I'ordinateur un point quelconque P d'au 
moins une case (16-24) de ces documents et enfin a reconnaitre par 
reconnaissance OCR (270) les caracteres de cette case afm de les stocker 
(280) dans une premiere base de donnees (34) reliee a I'ordinateur pour 
permettre une indexation des dessins ainsi numerises. 

2. Procede selon la revendication 1, caracterise en ce que ladite etape 
de designation comprend une etape de recherche et d' identification de la 
case du document a laquelle appartient ledit point P designe par I'utilisateur. 

3. Procede selon la revendication 2, caracterise en ce que ladite etape 
de recherche et d' identification de ladite case est effectuee en appliquant un 
algorithme de recherche de fornie sur une zone de recherche determinee 
entourant ledit point P designe prealablement par Tutilisateur. 

4. Procede selon la revendication 3, caracterise en ce que ledit 
algorithme de recherche de fomie est un algorithme de projection qui 
compte le nombre de pixels presents dans chaque ligne verticale ou 
horizontale de ladite zone de recherche determinee et, a partir de ces 
nombres, retrouve par I'examen de pics de profils de projection selon X et 
Y, les lignes horizontales et verticales presentes dans cette zone de 
recherche. 

5. Procede selon la revendication 3, caracterise en ce que ledit 
algorithme de recherche de fonne est un algorithme a base de transformee 
de HOUGH. 

6. Procede selon la revendication 1, caracterise en ce que ladite etape 
de reconnaissance OCR est precedee par une etape (260) de definition par 
I'utilisateur du type de caractere a recormaitre dans ladite case du document. 
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7. Procede selon la revendication 1 , caracterise en ce que ladite etape 
de numerisation est effectuee tout d'abord pour I'ensemble des documents a 
exploiter, lesdites etapes d' identification de la case et de reconnaissance 
OCR de son contenu etant ensuite effecmees successivement pour chacun 
de ces documents. 

8. Procede selon la revendication 1, caracterise en ce que ladite etape 
de numerisation est effectuee tout d'abord pour un premier document, 
lesdites etapes dMdentification de la case et de reconnaissance OCR de son 
contenu etant ensuite effectuees pour ce meme document, ces trois etapes se 
repetant successivement pour Tensemble des documents a exploiter. 

9. Procede selon I'une quelconque des revendications I a 8, 
caracterise en ce que lesdits documents a reconnaitre et a indexer sont 
constitues par un ensemble de dessins techniques de type distincts ou non. 

10. Procede selon Tune quelconque des revendications 1 a 8, 
caracterise en ce que lesdits documents a reconnaitre et a indexer sont 
constitues par un ensemble de fonnulaires de type distincts ou non. 

11. Dispositif de reconnaissance et d'indexation de documents (10) 
comportant un numeriseur (30) pour numeriser un document et delivrer une 
image de ce document, un ordinateur (32) relie au numeriseur pour recevoir 
cette image numerisee, et une premiere base de donnees (34) reliee a cet 
ordinateur pour stocker cette image numerisee, caracterise en ce qu'il 
comporte en outre des moyens logiciels (120, 130) pour designer, au moyen 
d"un organe de pointage (36) de Tordinateur, un point quelconque P d'au 
moins une case (16-24) de cette image, pour rechercher et identifier la case 
a laquelle appartient ledit point P designe par I'utilisateur et pour 
reconnaitre, par reconnaissance OCR, les caracteres de cette case afm de 
pen-nettre une indexation des images ainsi numerisees. 

12. Dispositif selon la revendication 11, caracterise en ce qu'il 
comporte en outre une seconde base de donnees (38) reliee a I'ordinateur 
(32) pour stocker des donnees (dites donnees de caracterisation) pemiettant 
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une identification ulterieure automatique de la case sans designation 
prealable d'un point quelconque P de cette case. 

13. Dispositif selon la revendication 11, caracterise en ce qu'il 
comporte en outre des moyens logiciels (120, 130) pour definir le type de 
donnees a reconnaitre dans ladite case du document. 

14. Dispositif selon la revendication 11 ou la revendication 12, 
caracterise en ce que les premiere (34) et deuxieme (38) bases de donnees 
sont integrees dans la memoire de I'ordinateur (32). 

15. Dispositif selon la revendication 11, caracterise en ce que ledit 
organe de pointage est remplace par le clavier de I'ordinateur (32) ou le 



doigt de I'utilisateur. 
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